8 research outputs found

    Learning the clustering of longitudinal shape data sets into a mixture of independent or branching trajectories

    Get PDF
    Given repeated observations of several subjects over time, i.e. a longitudinal data set, this paper introduces a new model to learn a classification of the shapes progression in an unsupervised setting: we automatically cluster a longitudinal data set in different classes without labels. Our method learns for each cluster an average shape trajectory (or representative curve) and its variance in space and time. Representative trajectories are built as the combination of pieces of curves. This mixture model is flexible enough to handle independent trajectories for each cluster as well as fork and merge scenarios. The estimation of such non linear mixture models in high dimension is known to be difficult because of the trapping states effect that hampers the optimisation of cluster assignments during training. We address this issue by using a tempered version of the stochastic EM algorithm. Finally, we apply our algorithm on different data sets. First, synthetic data are used to show that a tempered scheme achieves better convergence. We then apply our method to different real data sets: 1D RECIST score used to monitor tumors growth, 3D facial expressions and meshes of the hippocampus. In particular, we show how the method can be used to test different scenarios of hip-pocampus atrophy in ageing by using an heteregenous population of normal ageing individuals and mild cog-nitive impaired subjects

    Modélisation statistique de données médicales et analyse théorique des algorithmes d’estimation

    No full text
    In the medical field, the use of features extracted from images is increasingly common to perform diagnostics or measure the effectiveness of a treatment over time. These measures can for example be real numbers (volume, cognitive scores), meshes of an organ or even the image itself. In the latter two cases, a Euclidean space cannot describe the space of measurements and it is necessary to use Riemannian manifolds. Using this Riemannian framework and mixed effects models, it is then possible to estimate a representative object of the population as well as the inter-individual variability.In the longitudinal case (subjects observed repeatedly over time), these models allow to create an average trajectory, representative of the global evolution of the population. In this thesis, we propose to generalize these models in the case of a mixture of populations. Each sub-population can follow different dynamics over time and their representative trajectory can branch or join from one time interval to another. This new model allows, for example, to model the onset of a disease as a deviation from a normal aging.In a second step, we are also interested in the detection of anomalies (e.g. tumours) in a population. Given an object representing a control population, we define an anomaly as a structure that cannot be reconstructed by a diffeomorphic deformation of this representative object. Our method has the advantage of requiring neither a large data set nor annotation by physicians. Moreover, it can be easily applied to any organ.Finally, we are interested in different theoretical properties of the previously used estimation algorithms. In the context of non-linear mixed effects models, the MCMC-SAEM algorithm is used. In this thesis, we will discuss two theoretical limitations. Firstly, we will lift the geometric ergodicity assumption by replacing it with a sub-geometric ergodicity assumption. Furthermore, we will look at a method, often used in practice, allowing to apply the SAEM algorithm when the joint distribution is not exponentially curved. We will show that this method introduces a bias in the estimation that we will measure. We will also propose a new algorithm to reduce it.Dans le domaine médicale, l'usage de caractéristiques extraites d'images est de plus en plus répandu. Ces mesures peuvent être des nombres réels (volume, score cognitifs), des maillages d'organes ou l'image elle-même. Dans ces deux derniers cas, un espace Euclidien ne peut décrire l'espace de mesures et il est nécessaire de se placer sur une variété Riemanienne. En utilisant ce cadre Riemannien et des modèles à effets mixtes, il est alors possible d'estimer un objet représentatif de la population ainsi que la variabilité inter-individuelle.Dans le cas longitudinal (sujets observés de manière répétée au cours du temps), ces modèles permettent de créer une trajectoire moyenne représentative de l’évolution globale de la population. Dans cette thèse, nous proposons de généraliser ces modèles dans le cas d'un mélange de population. Chaque sous-population peut suivre différentes dynamiques au cours du temps et leur trajectoire représentative peut être la même ou différer d'un intervalle temporel à l'autre. Ce nouveau modèle permet par exemple de modéliser l'apparition d'une maladie comme une déviation par rapport à un vieillissement normal.Nous nous intéressons également à la détection d'anomalies (par exemple de tumeurs) dans une population. En disposant d'un objet représentant une population contrôle, nous définissons une anomalie comme ce qui ne peut être reconstruit par déformation difféomorphique de cet objet représentatif. Notre méthode à l'avantage de ne nécessiter ni grand jeu de donnée, ni annotation par des médecins et peut être facilement appliquée à tout organe.Finalement, nous nous intéressons à différentes propriétés théoriques des algorithmes d'estimation utilisés. Dans le cadre des modèles à effets mixtes non linéaires, l'algorithme MCMC-SAEM est utilisé. Nous discuterons de deux limitations théoriques. Premièrement, nous lèverons l'hypothèse d'ergodicité géométrique en la remplaçant par une hypothèse d'ergodicité sous-géométrique. De plus, nous nous intéresserons à une méthode permettant d'appliquer l'algorithme SAEM quand la distribution jointe n'est pas courbe exponentielle. Nous montrerons que cette méthode introduit un biais dans l'estimation que nous mesurerons. Nous proposerons également un nouvel algorithme permettant de le réduire

    Modélisation statistique de données médicales et analyse théorique des algorithmes d’estimation

    No full text
    In the medical field, the use of features extracted from images is increasingly common to perform diagnostics or measure the effectiveness of a treatment over time. These measures can for example be real numbers (volume, cognitive scores), meshes of an organ or even the image itself. In the latter two cases, a Euclidean space cannot describe the space of measurements and it is necessary to use Riemannian manifolds. Using this Riemannian framework and mixed effects models, it is then possible to estimate a representative object of the population as well as the inter-individual variability.In the longitudinal case (subjects observed repeatedly over time), these models allow to create an average trajectory, representative of the global evolution of the population. In this thesis, we propose to generalize these models in the case of a mixture of populations. Each sub-population can follow different dynamics over time and their representative trajectory can branch or join from one time interval to another. This new model allows, for example, to model the onset of a disease as a deviation from a normal aging.In a second step, we are also interested in the detection of anomalies (e.g. tumours) in a population. Given an object representing a control population, we define an anomaly as a structure that cannot be reconstructed by a diffeomorphic deformation of this representative object. Our method has the advantage of requiring neither a large data set nor annotation by physicians. Moreover, it can be easily applied to any organ.Finally, we are interested in different theoretical properties of the previously used estimation algorithms. In the context of non-linear mixed effects models, the MCMC-SAEM algorithm is used. In this thesis, we will discuss two theoretical limitations. Firstly, we will lift the geometric ergodicity assumption by replacing it with a sub-geometric ergodicity assumption. Furthermore, we will look at a method, often used in practice, allowing to apply the SAEM algorithm when the joint distribution is not exponentially curved. We will show that this method introduces a bias in the estimation that we will measure. We will also propose a new algorithm to reduce it.Dans le domaine médicale, l'usage de caractéristiques extraites d'images est de plus en plus répandu. Ces mesures peuvent être des nombres réels (volume, score cognitifs), des maillages d'organes ou l'image elle-même. Dans ces deux derniers cas, un espace Euclidien ne peut décrire l'espace de mesures et il est nécessaire de se placer sur une variété Riemanienne. En utilisant ce cadre Riemannien et des modèles à effets mixtes, il est alors possible d'estimer un objet représentatif de la population ainsi que la variabilité inter-individuelle.Dans le cas longitudinal (sujets observés de manière répétée au cours du temps), ces modèles permettent de créer une trajectoire moyenne représentative de l’évolution globale de la population. Dans cette thèse, nous proposons de généraliser ces modèles dans le cas d'un mélange de population. Chaque sous-population peut suivre différentes dynamiques au cours du temps et leur trajectoire représentative peut être la même ou différer d'un intervalle temporel à l'autre. Ce nouveau modèle permet par exemple de modéliser l'apparition d'une maladie comme une déviation par rapport à un vieillissement normal.Nous nous intéressons également à la détection d'anomalies (par exemple de tumeurs) dans une population. En disposant d'un objet représentant une population contrôle, nous définissons une anomalie comme ce qui ne peut être reconstruit par déformation difféomorphique de cet objet représentatif. Notre méthode à l'avantage de ne nécessiter ni grand jeu de donnée, ni annotation par des médecins et peut être facilement appliquée à tout organe.Finalement, nous nous intéressons à différentes propriétés théoriques des algorithmes d'estimation utilisés. Dans le cadre des modèles à effets mixtes non linéaires, l'algorithme MCMC-SAEM est utilisé. Nous discuterons de deux limitations théoriques. Premièrement, nous lèverons l'hypothèse d'ergodicité géométrique en la remplaçant par une hypothèse d'ergodicité sous-géométrique. De plus, nous nous intéresserons à une méthode permettant d'appliquer l'algorithme SAEM quand la distribution jointe n'est pas courbe exponentielle. Nous montrerons que cette méthode introduit un biais dans l'estimation que nous mesurerons. Nous proposerons également un nouvel algorithme permettant de le réduire

    Statistical modelling of medical data and theoretical analysis of estimation algorithms

    No full text
    Dans le domaine médicale, l'usage de caractéristiques extraites d'images est de plus en plus répandu. Ces mesures peuvent être des nombres réels (volume, score cognitifs), des maillages d'organes ou l'image elle-même. Dans ces deux derniers cas, un espace Euclidien ne peut décrire l'espace de mesures et il est nécessaire de se placer sur une variété Riemanienne. En utilisant ce cadre Riemannien et des modèles à effets mixtes, il est alors possible d'estimer un objet représentatif de la population ainsi que la variabilité inter-individuelle.Dans le cas longitudinal (sujets observés de manière répétée au cours du temps), ces modèles permettent de créer une trajectoire moyenne représentative de l’évolution globale de la population. Dans cette thèse, nous proposons de généraliser ces modèles dans le cas d'un mélange de population. Chaque sous-population peut suivre différentes dynamiques au cours du temps et leur trajectoire représentative peut être la même ou différer d'un intervalle temporel à l'autre. Ce nouveau modèle permet par exemple de modéliser l'apparition d'une maladie comme une déviation par rapport à un vieillissement normal.Nous nous intéressons également à la détection d'anomalies (par exemple de tumeurs) dans une population. En disposant d'un objet représentant une population contrôle, nous définissons une anomalie comme ce qui ne peut être reconstruit par déformation difféomorphique de cet objet représentatif. Notre méthode à l'avantage de ne nécessiter ni grand jeu de donnée, ni annotation par des médecins et peut être facilement appliquée à tout organe.Finalement, nous nous intéressons à différentes propriétés théoriques des algorithmes d'estimation utilisés. Dans le cadre des modèles à effets mixtes non linéaires, l'algorithme MCMC-SAEM est utilisé. Nous discuterons de deux limitations théoriques. Premièrement, nous lèverons l'hypothèse d'ergodicité géométrique en la remplaçant par une hypothèse d'ergodicité sous-géométrique. De plus, nous nous intéresserons à une méthode permettant d'appliquer l'algorithme SAEM quand la distribution jointe n'est pas courbe exponentielle. Nous montrerons que cette méthode introduit un biais dans l'estimation que nous mesurerons. Nous proposerons également un nouvel algorithme permettant de le réduire.In the medical field, the use of features extracted from images is increasingly common to perform diagnostics or measure the effectiveness of a treatment over time. These measures can for example be real numbers (volume, cognitive scores), meshes of an organ or even the image itself. In the latter two cases, a Euclidean space cannot describe the space of measurements and it is necessary to use Riemannian manifolds. Using this Riemannian framework and mixed effects models, it is then possible to estimate a representative object of the population as well as the inter-individual variability.In the longitudinal case (subjects observed repeatedly over time), these models allow to create an average trajectory, representative of the global evolution of the population. In this thesis, we propose to generalize these models in the case of a mixture of populations. Each sub-population can follow different dynamics over time and their representative trajectory can branch or join from one time interval to another. This new model allows, for example, to model the onset of a disease as a deviation from a normal aging.In a second step, we are also interested in the detection of anomalies (e.g. tumours) in a population. Given an object representing a control population, we define an anomaly as a structure that cannot be reconstructed by a diffeomorphic deformation of this representative object. Our method has the advantage of requiring neither a large data set nor annotation by physicians. Moreover, it can be easily applied to any organ.Finally, we are interested in different theoretical properties of the previously used estimation algorithms. In the context of non-linear mixed effects models, the MCMC-SAEM algorithm is used. In this thesis, we will discuss two theoretical limitations. Firstly, we will lift the geometric ergodicity assumption by replacing it with a sub-geometric ergodicity assumption. Furthermore, we will look at a method, often used in practice, allowing to apply the SAEM algorithm when the joint distribution is not exponentially curved. We will show that this method introduces a bias in the estimation that we will measure. We will also propose a new algorithm to reduce it

    On the curved exponential family in the Stochatic Approximation Expectation Maximization Algorithm

    No full text
    The Expectation-Maximization (EM) Algorithm is a widely used method allowing to estimate the maximum likelihood of models involving latent variables. When the Expectation step cannot be computed easily, one can use stochastic versions of the classical EM such as the Stochastic Approximation EM (SAEM). This algorithm, however, has the disadvantage to require the joint likelihood to belong to the curved exponential family. This hypothesis is a bottleneck in a lot of practical situations where it is not verified. To overcome this problem, Kuhn and Lavielle (2005) introduce a rewriting of the model which ``exponentializes'' it. It consists in considering the parameter as an additional latent variable following a Normal distribution centered on the newly defined parameters and with fixed variance. The likelihood of this new exponentialized model now belongs to the curved exponential family and stochastic EM algorithms apply. Although often used, there is no guarantee that the estimated mean will be close to the maximum likelihood estimate of the initial model. In this paper, we will quantify the error done in this estimation while considering the exponentialized model instead of the initial one. More precisely, we will show that this error tends to 0 as the variance of the new Gaussian distribution goes to 0 while computing an upper bound. By verifying those results on an example, we will see that a compromise must be made in the choice of the variance between the speed of convergence and the tolerated error. Finally, we will propose a new algorithm allowing a better estimation of the parameter in a reasonable computation time

    A coherent framework for learning spatiotemporal piecewise- geodesic trajectories from longitudinal manifold-valued data

    No full text
    This paper provides a coherent framework for studying longitudinal manifold-valued data. We introduce a Bayesian mixed-effects model which allows to estimate both a group-representative piecewise-geodesic trajectory in the Riemannian space of shape and inter-individual variability. We prove the existence of the maximum a posteriori estimate and its asymptotic consistency under reasonable assumptions. Due to the non-linearity of the proposed model, we use a stochastic version of Expectation-Maximization algorithm to estimate the model parameters. Our simulations show that our model is not noise-sensitive and succeed in explaining various paths of progression

    On the convergence of stochastic approximations under a subgeometric ergodic Markov dynamic

    Get PDF
    IIn this paper, we extend the framework of the convergence ofstochastic approximations. Such a procedure is used in many methods such as parameters estimation inside a Metropolis Hastings algorithm, stochastic gradient descent or stochastic Expectation Maximization algorithm. It is given by θ n+1 = θn + ∆ n+1 H θn (X n+1) , where (Xn)n∈N is a sequence of random variables following a parametric distribution which depends on (θn)n∈N, and (∆n)n∈N is a step sequence. The convergence of such a stochastic approximation has already been proved under an assumption of geometric ergodicity of the Markov dynamic. However, in many practical situations this hypothesis is not satisfied, for instance for any heavy tail target distribution in a Monte Carlo Metropolis Hastings algorithm. In this paper, we relax this hypothesis and prove the convergence of the stochastic approximation by only assuming a subgeometric ergodicity of the Markov dynamic. This result opens up the possibility to derive more generic algorithms with proven convergence. As an example, we first study an adaptive Markov Chain Monte Carlo algorithm where the proposal distribution is adapted by learning the variance of a heavy tail target distribution. We then apply our work to the Independent Component Analysis when a positive heavy tail noise leads to a subgeometric dynamic in an Expectation Maximization algorithm

    A coherent framework for learning spatiotemporal piecewise-geodesic trajectories from longitudinal manifold-valued data

    Get PDF
    International audienceThis paper provides a coherent framework for studying longitudinal manifold-valued data. We introduce a Bayesian mixed-effects model which allows estimating both a group-representative piecewise-geodesic trajectory in the Riemannian space of shape and inter-individual variability. We prove the existence of the maximum a posteriori estimate and its asymptotic consistency under reasonable assumptions. Due to the non-linearity of the proposed model, we use a stochastic version of the Expectation-Maximization algorithm to estimate the model parameters. Our simulations show that our model is not noise-sensitive and succeeds in explaining various paths of progression
    corecore